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摘 要 : 针对 使 用 传统 的 模型 并 行 方法 加 速 卷 积 神经 网 络 训练 容易 出 现 设备 利用 率 不 高 的 问题 ， 提 出 了 通过 软件 流 
水 线 方 式 加 速 卷 积 神经 网 络 的 方法 PipeCNN。 首 先 研究 了 卷 积 神经 网 络 中 的 前 向 传播 与 反 向 传播 算法 ， 分 析 了 训练 
过 程 中 的 数据 相关 性 ， 然 后 基于 软件 流水 线 改进 了 卷 积 神 经 网 络 的 训练 过 程 ， 提 出 了 两 种 可 行 的 参数 更 新 方式 ， 最 
后 使 用 循环 队列 来 实现 网 络 中 层 与 层 之 间 的 消息 通信 ， 并 提出 任务 分 配 算法 来 划分 软件 流水 线 中 的 工作 段 。 实 验 结 
果 显 示 ， 这 种 方法 在 保证 模型 准确 性 的 前 提 下 ， 可 以 取得 良好 的 加 速 比 以 及 设备 利用 率 ， 表 明了 使 用 软件 流水 线 可 
以 有 效 解决 模型 并 行 中 设备 利用 率 不 高 的 问题 ， 提 高 了 卷 积 神经 网 络 的 训练 速度 。 
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PipeCNN: parallelization of convolutional neural network based on software pipeline technology 


Wu Peng', Zhou Ningning 
(School of Computer, Nanjing University of Posts & Telecommunications, Nanjing 210023, China) 


Abstract: Aiming at the traditional models parallel method for accelerating convolution neural network (CNN) tend to have 


as a low utilization, this paper proposed PipeCNN, a method that accelerates CNN with software pipeline. Firstly, this paper 
i studied the forward propagation and back propagation, and then explored data correlation during training. Secondly, it 
parallelized CNN with the support of software pipeline, and then analyzed two feasible gradient updating methods in PipeCNN. 
Finally, it used circular queue to realize communication between two layers and then proposed a task allocation algorithm to 
divide CNN into working parts. Experiments showed that the method can obtain good speedup and utilization while ensuring 
the accuracy of the model. It showed that software pipeline can effectively solve the problem of low utilization in model 
parallel, and accelerate the training of CNN. 
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0 引言 基于 流水 线 并 行 加 速 深度 学 习 的 方法 ， 其 核心 思想 是 使 用 分 

比 的 流水 算法 ， 将 模型 分 配 于 多 个 加 速 设备 中 ， 从 而 可 以 达 

卷 积 神经 网 络 是 深度 学 习 中 最 具有 代表 性 的 一 种 模型 ， 到 线性 的 加 速 比 。 但 是 在 模型 的 训练 过 程 中 ，Gpipe 不 可 避 
典型 的 卷 积 神经 网 络 是 由 一 定 个 数 的 基本 结构 单元 反复 堆 著 。 和 免 地 会 出 现 空 帮 阶段 , 这 会 限制 设备 利用 率 的 提升 。 文 献 [13] 

一 ”而 成 , 近 些 年 来 ,这 种 网 络 在 结构 上 呈现 出 逐渐 加 深 的 趋势 ， 为 了 解决 传统 GEMM 卷 积 算法 在 神威 太湖 之 光 超 级 计算 机 
= 改善 了 网 络 的 特征 提取 能 力 趾 . Resnet 中 通过 越 层 连 接 的 方式 上 执行 效率 不 高 的 问题 ， 使 用 软件 流水 的 方法 降低 从 核 访问 
很 好 地 解决 了 网 络 层 数 增多 带 来 的 梯度 消失 问题 ， 并 开创 性 ”的 开销 ， 使 得 并 行 卷 积 算法 比 基 础 算法 有 了 90 倍 的 性 能 提升 。 

地 将 卷 积 神经 网 络 的 层 数 增加 到 200 层 甚 至 上 干 层 ， 提 高 了 在 深度 学 习 中 ， 卷 积 神经 网 络 的 堆 二 式 的 结构 比较 符合 
模型 在 数据 集 上 的 表现 能 力 。 扩 展 模型 深度 意味 着 增加 模型 ”软件 流水 线 中 循环 体 的 特征 ， 因 此 软件 流水 技术 可 以 很 好 地 
参数 以 及 计算 量 ， 在 实际 的 应 用 中 ， 单 台 设备 越 来 越 难以 满 。 应 用 在 并 行 加 速 卷 积 神经 网 络 的 任务 中 。Gpipe 利用 了 软件 

足 存 储 并 计算 大 量 数据 的 需求 ,因此 使 用 并 行 技 术 B-9 来 加 速 ”流水 的 思想 加 速 了 深度 学 习 的 计算 ， 却 容易 出 现 空闲 阶段 限 

深度 学 习 渐 渐 成 为 主流 的 做 法 。 制 设备 利用 率 的 问题 ， 因 此 可 以 在 此 基础 上 提出 一 种 改进 方 


流水 线 中 是 一 种 常用 的 并 行 加 速 技术 ， 其 适用 于 具有 循 。 案 ， 达 到 消除 流水 线 空 亲 阶 段 的 效果 。 
环 体 结构 的 任务 。 文 献 [8] 使 用 流水 线 来 缓解 CPU 与 GPU 通 

信 开 销 带 来 的 计算 效率 的 问题 。 文 献 [9] 提 出 一 种 适用 于 X86 “1 ”前 向 传播 与 反 向 传播 

平台 的 软件 流水 实现 框架 ， 用 流水 线 实现 了 处 理 器 的 部 分 硬 实现 基于 软件 流水 线 的 卷 积 神经 网 络 并 行 计算 方法 
件 行为 。 文 献 [10] 设 计 了 一 种 软件 流水 循环 缓冲 , 用 于 存储 和 。 PipeCNN， 需 要 先 探究 前 向 传播 与 反 向 传播 过 程 中 的 数据 依 
派发 循环 体 指令 , 从 而 减少 访 存 延迟 对 性 能 的 影响 文献 [11] 赖 关系 ， 从 而 保证 数据 的 相关 性 以 及 并 行 计算 的 正确 性 。 
基于 多 核 处 理 器 提出 了 一 种 面向 数据 流程 序 的 软件 流水 并 行 。 1.1 前 向 传播 
比方 法 ,达到 最 大 化 流水 线 计算 速率 的 同时 最 小 化 通信 开销 在 前 向 传播 中 ， 卷 积 神经 网 络 接收 输入 数据 ， 并 从 前 往 
的 目的 。 后 逐 层 进 行 神经 元 的 计算 ， 最 后 输出 计算 结果 。 使 用 以 表示 
流水 线 在 深度 学 习 中 也 得 到 了 越 来 越 广泛 的 应 用 ， 为 了 第 7 层 中 的 权 值 ， 以 表示 第 1 层 的 偏 置 ，a' 表示! 层 中 神经 元 
满足 高 效 的 模型 并 行 需求 ,文献 [12] 提 出 了 Gpipe, 这 是 一 种 “的 输出 ， 并 用 符号 a0 代表 激活 函数 的 计算 ， 符 号 * 代 表 卷 
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积 运算 ， 则 第 1 层 中 神经 元 输 


a!=o(w *a™!+b') 


卷 积 神经 网 络 的 前 向 传播 是 一 个 循环 迭代 的 过 程 ， 式 (1) 


表示 了 第 / 
作为 输入 ， 


层 的 六 


吴 胞 等: 


tH 的 计算 过 程 如 式 (1) 所 示 。 


(1) 


1 向 计算 ， 然 后 ， 需 要 将 第 1 层 的 计算 结 


层 的 输出 。 卷 积 
的 输入 数据 首先 传送 给 aa， 然 后 从 首 
计算 函数 ， 到 最 后 一 层 即 可 得 到 输出 结果 。 


并 与 当前 层 的 参数 进 


1.2 反 向 传播 


在 训练 过 程 中 


经 网 络 前 向 传 ] 


行 卷 积 运算 ， 
看 的 计算 流程 如 下 : 网 络 中 
慨 开始 ， 逐 层 执行 前 向 


才能 得 到 /+1 


返 


日 


Ph， 前 向 传播 可 以 持续 计算 直到 产生 一 个 标 


量 代价 函数 , 反 向 


出 梯度 数据 。 


权重 w 以 及 偏 


个 步 又: 


a) 前 向 传播 完成 后 , 计算 来 自 


的 误差 ， 如 


专 播 将 来 自 代价 


函数 的 信息 向 后 流动 , 计算 


反 向 传播 算法 的 目的 是 计算 损失 函数 的 C 关于 


b 的 偏 导 数 9C/Ow 以 及 9C/0P, 主要 有 以 下 4 


网 络 最 后 一 层 ,， 即 第 工 层 
式 (2) 所 示 。 其 中 VC 表示 损失 函数 对 第 工 层 的 输 


出 产生 的 偏 导数 ， 符 号 © 表示 Hadamard 积 ， 该 操作 可 以 返 


可 两 个 相同 如 


E 度 的 向 量 逐 元 素 相 乘 之 后 的 结果 。 


6:=V,COo'(z’) 


2) 


b) 从 后 往 前 依次 计算 出 每 一 层 的 误差 5', 得 到 式 (3)。 由 


于 使 用 式 (2) 可 以 计算 出 6+， 使 用 式 (3) 可 以 计算 出 =， 因此 
可 以 美 推 下 去 ， 计 算出 5> ，55 等 等 ， 从 而 得 到 所 有 的 5。 
6! =((w™) 5") Oo'(z) (3) 
o) 计算 损失 函数 关于 权重 偏 置 b 的 偏 导数 0C/169) ,得 到 
@ 

ob! J 
d) 计算 出 网 络 中 所 有 层 权重 w 的 偏 导数 616w ,得 到 : 

oC -LS 
OW 和 2 G) 
计算 完 偏 导数 后 ， 卷 积 神经 网 络 需要 采用 合适 的 优化 算 


来 更 新 参数 ， 


法 来 更 新 参数 。 现 在 
学 习 进 行 优 化 ， 这 和 
似 整个 数据 集 的 分 布 情况 ， 通 过 一 批 数 
同一 批 的 数据 共 


般 采 


中 方法 是 使 


小 批量 梯度 下 降 方法 0 对 深度 
用 一 个 批 次 中 数据 的 分 布 来 近 


得 到 的 梯度 可 以 用 


1.3 反 向 传播 算法 中 的 数据 相关 性 


图 1 所 示 为 前 向 传播 与 反 


地 观察 到 数据 流动 的 方向 : 在 前 向 传播 
后 流动 ， 最 后 


input ) 


司 决定 了 本 次 梯度 的 方向 。 


向 传播 的 大 致 过 程 ， 可 以 清楚 


Ph， 数据 逐 层 从 前 往 


layer 1 layer 2 


1 2 


a a 


+ 


层 计 算 完 后 产生 标量 代价 函数 ， 然 后 数据 逐 
层 从 后 往 前 流动 ， 并 得 到 每 一 层 的 梯度 数据 ， 当 数据 
动 到 首 层 时 ， 反 向 传播 算法 结束 。 


layer L-1 


一 下 da 


-一 站 三 


再 次 流 


layer L 


< DFI 


Loss 
(C) 
Or 


/C/Ow! 人 
a 


[2 
OC/ 
1 /\ /Wm 


2 


Ea js 


了 


Eva \ 


C/Oh 


图 1 数据 传播 过 程 


Fig. 1 Data currency 


为 了 下 


完 传播 过 程 


来 表示 卷 积 # 


PF 的 数据 相关 性 ， 


伪 代 码 的 形式 


使 ) 


经 网 络 的 反 向 传播 算法 ， 如 算法 1 所 示 。 


算法 1 


反 向 传播 算法 


输入 : Input data x 


输出 : 
: al ex 
: for L = 


Zt 


: end for 


至 
这 
3 
4: a' ¢o(z!) 
入 
6 


oc/ Ow and 6C/ob 


2toL do 


WL * at-i+b! 


: OV,COo'(z’) 
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7: for L=L-1toldo 


8: 6 (wm) em) Oo'(z!) 
9: CG © ano) 
Ow 
16 : Lg 
ob; 
11: end for 


从 算法 1 可 以 分 析出 数据 之 间 的 依赖 关系 : 在 前 向 


传播 


中 ， 从 卷 积 神经 网 络 的 第 一 层 开 始 ， 依 次 逐 层 执行 前 向 计算 


的 函数 ， 内 中 


的 计算 需要 依 


果 qa 站; 而 在 反 向 传播 


第 1 


层 a! 的 计算 需要 依赖 于 第 1-1 层 输出 的 结 
Ph， 数据 从 后 往 前 流动 ， 其 中 第 / 


层 


赖 于 第 +1 层 计 算出 的 5m， 而 偏 导 数 6C /Ow 


的 计算 又 依赖 于 5 和 第 L1 层 的 神经 元 输出 结果 of 。 
2 ”基于 流水 线 的 卷 积 神经 网 络 并 行 化 方法 


2.1 
在 卷 积 


经 网 络 的 


卷 积 神经 网 络 中 的 并 行 计算 方法 


应 用 中 ， 有 两 种 并 行 计算 的 方法 ， 分 


别 为 数据 并 行 


速 方法 ， 这 种 方式 需要 同时 在 多 个 计算 设备 中 使 | 


和 模型 


行 。 数 据 并 行 是 一 种 较 常 用 的 模型 加 


相同 的 模 


型 副本 ， 并 将 一 个 批 次 的 数据 分 配 在 不 同 的 计算 设备 中 进行 


前 向 传播 和 反 向 传播 的 计算 ， 
模型 参数 。 神 经 网 络 使 ) 
的 训练 ， 并 按照 相同 的 方式 迭代 下 去 。 


然后 使 用 合适 的 优化 算法 更 新 
j 更 新 过 后 的 参数 继续 进行 下 一 批 次 


当 模型 的 规模 较 大 ， 而 单个 设备 无 法 存放 整个 模型 的 时 


候 ， 会 采 


了 模 


型 并 行 的 


方法 来 实现 训练 过 程 。 将 一 个 设备 中 


执行 的 计算 任务 称 为 工作 段 ， 则 这 种 方式 需要 将 模型 分 为 4 


个 较 小 的 工作 段 ， 并 放 入 不 同 的 设备 中 执行 ， 从 而 可 以 通过 
多 个 计算 设备 实现 大 规模 的 模型 训练 任务 。 图 2 是 4 为 4 时 
的 模型 并 行 计算 过 程 。 
Loss 

Device 3 F3 B3 

Device 2 F2 B2 

Device 1 Fl Bl 

Device0 Fo Bo 

Gradients 
(a) 模 型 并 行 中 的 前 向 传播 与 反 向 传播 


Device > 


Update 


(b) 模 型 并 行 的 时 空 图 
图 2 模型 并 行 
Fig.2 Model parallelism 
从 图 2(a) 可 以 看 出 模型 并 行 中 前 向 传播 与 反 向 传播 的 计 
算 过 程 , Fi 表示 该 工作 段 在 第 个 设备 中 执行 前 向 传播 计算 ， 
Bt 表示 该 工作 段 在 第 个 设备 中 执行 反 向 传播 计算 。 计 算 过 


Ee 


程 中 的 数据 依赖 关系 通过 箭头 表示 出 来 ， 其 中 工作 段 Ferz 的 


计算 依赖 于 Fi 中 
于 Br 以 及 灰 中 
Fij 表示 第 个 设备 执 


示 第 个 设备 


执行 第 7 


的 数据 。 图 


行 第 /条 数据 的 部 分 前 向 计算 ，Buw 表 


而 工作 段 Bi 的 计算 需要 同时 依赖 
2(b) 是 模型 并 行 的 时 空 图 ,其 中 


条 数据 的 部 分 反 向 计算 。 由 于 存在 数 
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等， 
据 相 关 性 的 问题 ， 同 一 时 刻 只 有 而 其 
他 的 设备 需要 等 到 相关 的 设备 计算 完毕 才能 运 

2.2 PipeCNN 的 模型 并 行 
软件 流水 线 是 一 种 常用 的 并 行 加 速 手段 ， 而 将 这 种 技术 
应 用 于 深度 学 习 中 具有 很 大 的 实用 价值 。 文 献 [12] 提 出 了 
Gpipe, 这 是 一 种 使 用 流水 线 实现 模型 并 行 的 框架 , 缓解 了 模 
型 并 行 中 设备 利用 率 不 高 的 问题 。 该 方法 将 一 个 批 次 的 训练 
样本 进一步 划分 为 多 个 微 批 次 ， 不 同 的 计算 设备 可 以 同时 执 
行 不 同 微 批 次 中 的 数据 ， 当 一 个 批 次 中 所 有 微 批 次 的 数据 计 
算 完 毕 后 ， 再 执行 同步 梯度 更 新 算法 来 改变 权 值 。 图 3 是 


GPipe 中 微 批 次 的 数据 个 数 为 1 时 ， 流 水 线 的 时 空 图 ， 可 以 
看 出 前 向 传播 到 反 向 传播 的 过 渡 阶 段 仍然 会 出 现 空闲 的 时 间 ， 
四 加 加 上 四国 吕 世 品 吕 
Time > 
等 待 的 问题 ， 提 出 一 种 新 的 加 速 卷 积 神经 网 络 的 方法 
PipeCNN 。 虽 虽然 PipeCNN 也 是 基于 流水 线 的 思想 ,但 与 Gpipe 
8 个 。 这 种 方式 相当 于 进一步 细 分 了 卷 积 神经 网 络 中 的 计算 
任务 ， 消 除了 前 向 与 反 向 的 计算 必须 绑 定 在 同一 个 设备 中 的 


这 也 限制 了 设备 利用 率 的 进一步 提高 。 
国 四 国 因 
图 3 Gpipe 中 的 时 空 图 
不 同 的 是 ， 其 中 的 前 向 传播 和 反 向 传播 的 计算 可 以 灵活 地 分 
限制 ， 增 加 了 工作 段 中 任务 分 配 的 灵活 性 。 


Update 


A 国 贺 国 国 四 国 区 
Fig.3 Space-time diagram in Gpipe 
配 在 不 同 设备 中 执行 。 例 如 ， 图 4 中 的 PipeCNN 将 前 向 与 反 


ese] loll 
为 了 解决 Gpipe 中 的 流水 线 在 计算 过 程 中 会 出 现 的 空闲 
向 的 计算 分 配 在 了 不 同 的 工作 段 中 ， 从 而 将 计算 设备 增加 至 


Loss 
Device 3 F3 “上 一 ”| B3 Device 4 
Device 2 F2 “ 广 -一 B2 Device5 


Device 1 F1 “上 一 ”| Bl Device 6 


Device0 Fo Fy Bo Device7 


Gradients 
图 4 PipeCNN 中 的 模型 并 行 
Fig.4 Model parallelism in pipecnn 
2.3 PipeCNN 的 权 值 更 新 
PipeCNN 加 快 了 卷 积 神经 网 络 中 梯度 的 计算 过 程 ,然而 ， 
如 何在 使 用 流水 线 计 算 梯 度 的 同时 更 新 权 值 是 一 个 重要 的 问 
题 。 理想 的 情况 下 , 权 值 更 新 的 过 程 与 PipeCNN 计算 梯度 的 
过 程 可 以 正常 执行 ， 互 不 干扰 ， 然 而 在 实际 的 操作 中 会 出 现 
两 种 情况 : 
a) 如 果 PipeCNN 按照 同步 梯度 更 新 的 方式 进行 计算 ， 
那么 当 流 水 线 计算 完 一 个 批 次 之 后 ， 必 须 停 止 工作 ， 等 到 权 
值 更 新 完毕 之 后 ， 才 能 够 让 流水 线 重新 运行 ， 进 行 下 一 个 批 
次 的 计算 ， 将 这 种 方式 命名 为 间断 性 PipeCNN。 从 图 5 的 时 
图 可 以 看 出 ， 设 备 利 用 的 效率 和 批量 的 大 小 有 关 ， 当 批量 
小 的 时 候 ， 设 备 的 空闲 时 间 较 长 ， 导 致 利用 效率 低 ， 而 所 
增 大 的 时 候 ， 设 备 利用 效率 会 逐渐 提高 


es 加 


妃 湾 
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程 中 使 用 参数 版 本 不 一 致 的 现象 ， 继 而 影响 后 续 批 次 的 梯度 


计算 过 程 。 


例如 ， 对 于 第 7 个 样本 ， 其 前 向 传播 中 的 前 部 分 


使 用 的 是 第 i 个 版 本 的 权 值 ， 而 后 部 分 使 用 的 是 第 itl 个 版 


本 的 权 值 ， 


种 方式 会 使 得 一 部 分 的 数据 不 能 在 训练 过 程 中 使 用 完整 的 新 


然后 将 模型 最 后 的 输出 结果 用 于 梯度 的 计算 。 这 


参数 进行 前 向 计算 ， 在 一 定 程度 上 减弱 了 新 参数 的 作用 。 这 


实际 上 是 一 


种 异步 梯度 更 新 05 的 方式 ， 这 种 方式 可 以 使 模型 


收敛 ， 但 是 可 能 会 导致 模型 训练 在 训练 过 程 中 出 现 不 稳定 现 
象 ， 将 这 种 方式 命名 为 连续 型 PipeCNN。 图 6 是 批量 为 6 时 
连续 型 PipeCNN 的 参数 更 新 情况 。 


Device > 


Update 


Time > 
图 5 间断 型 PipeCNN 
Fig.5 Interval pipecnn 


Update0 


比较 PipeCNN 中 两 种 参数 更 新 的 方式 可 以 发 现 , 连续 型 
PipeCNN 消除 了 参数 更 新 的 空闲 等 待 阶 段 ， 有 具有 较 大 的 优势 ， 
因此 下 面 着 重 分 析 批 量 的 大 小 对 连续 型 PipeCNN 的 影响 。 观 


图 6 连续 型 PipeCNN 


Fig. 6 Consecutive pipecnn 


察 图 5 中 | 


在 前 向 传播 的 过 程 中 使 用 了 完整 的 同一 版 本 的 参数 ， 而 第 


个 箭头 中 间 的 数据 可 以 看 出 ， 第 7，8，9 条 数据 


10,11,12 条 数据 在 前 向 传播 过 程 中 会 使 用 两 个 版 本 的 参数 。 
在 连续 型 PipeCNN 中 , 这 种 异步 梯度 更 新 的 方式 是 不 可 避免 
的 ， 但 是 增 大 批量 的 大 小 就 会 观察 到 ， 使 用 同一 版 本 参数 进 
行 前 向 计算 的 数据 增多 ， 而 使 用 不 同 版 本 参数 的 数据 个 数 却 
不 会 发 生 改变 ， 从 而 异步 梯度 更 新 的 数据 所 占 的 比例 会 逐渐 


减少 。 


设 前 向 传播 连续 型 PipeCNN 的 设备 数 为 4， 而 批量 的 大 
小 为 5b, 且 b>d, 则 在 同一 批 次 中 , 有 (5-d+1) 个 样本 使 用 了 同 
步 梯度 更 新 的 方式 进行 了 计算 ， 而 只 有 (q- 了 ) 个 样本 使 用 了 异 
步 梯度 更 新 的 方式 进行 计算 ， 因 此 一 个 批 次 样本 中 使 用 同步 
梯度 更 新 的 比例 为 


2 一 Qd+1 
2 9 


从 式 (6) 可 以 看 出 ， 当 b>>4q 的 时 候 , Ps 接近 于 1, 此 时 大 
部 分 的 数据 都 会 使 用 同步 梯度 更 新 的 方式 ， 这 种 情况 下 网 络 
的 收敛 是 稳定 的 。 在 深度 学 习 中 ， 采 用 较 大 的 批量 进行 网 络 


b) 如 果 保 证 PipeCNN Ra 就 需要 在 
前 批 次 数据 的 梯度 还 未 计算 完毕 ， 就 把 下 一 个 批 次 的 数据 
送 到 网 络 中 进行 计算 ， 这 会 时 致 革 些 训练 数据 的 前 向 计算 过 


[ly 


训练 是 一 种 常见 的 做 法 ， 以 便 一 个 批 次 的 数据 可 以 更 接近 于 
整个 数据 集 的 分 布 情况 , 因 因此 连续 型 PipeCNN 可 以 应 用 到 大 


部 分 的 深度 


学 习 训练 任务 中 。 


:202009.00110v1 
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录用 


3 
3.1 


以 天 


决 任务 单元 之 间 的 通信 问题 。 
进行 ， 因 此 该 问题 可 以 很 方便 地 使 用 多 线程 共享 3 
实现 。 为 了 保证 计算 过 程 中 
列 来 存储 卷 积 神经 网 络 每 一 层 的 数据 。 
循环 队列 是 一 种 线性 数据 结构 , 它 遵循 先进 先 出 的 原则 ， 
队列 中 最 后 一 个 元 素 的 rear 
成 一 个 环 。 在 定义 循环 
数据 的 个 数 ， 并 开辟 相应 的 
种 方法 ， 分 别 为 Front()，enQueue()，deQueue()， 它们 的 作用 
分 别 是 返回 队 头 元 素 ， 入 队 和 出 队 操作 。 一 般 来 讲 ， 
空 队列 上 执行 一 个 出 队 的 操作 会 引发 异常 
PipeCNN 中 使 用 循环 队列 这 种 数 


定稿 


PipeCNN 的 具体 实现 


吴 胸 ， 等: 


基于 循环 队列 的 消息 通信 机 制 


PipeCNN 可 以 将 卷 积 神经 
任务 单元 ， 多 个 任务 单元 可 以 组 


网 络 中 的 不 同 层 
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3.2 工作 段 的 划分 


由 象 为 最 小 


合成 为 工作 段 ， 因 此 需要 解 


E CPU 的 环境 下 


在 软件 流水 线 中 ， 多 个 工作 段 的 任务 会 分 别 交 给 不 同 的 


计算 资源 执行 ， 为 了 取得 良好 的 加 速 比 ， 需 要 保证 每 个 工作 
段 的 执行 时 间 大 致 相同 ， 因 而 需要 有 一 个 较为 合理 的 任务 分 
配 算法 。 可 以 对 任务 分 配 的 问题 进行 抽象 : 给 定 大 小 为 于 的 


务 单元 执行 时 间 的 集合 W={wi,w2,…,wn} ,集合 中 元 素 按照 


量 的 方式 


数据 顺序 的 正确 性 ， 使 用 循环 队 


前 针 指向 第 一 个 元 素 上 
队列 的 时 候 ， 需 要 指 


内 存 空 间 


定 队列 存储 
。 循 环 队列 中 一 共有 三 


位置， 可 


可 以 使 用 while 循环 进行 等 待 ， 


直 执 和 


输出 : ae1) 


在 计算 机 


aq ¢-layer(').Front() 


ZL+lk Wi+1l* at+b!+1l 


: at eo(z!+1) 
: layer(ttl .enQueue(at+1) 
: layer( .deQueue() 

反 向 传播 计算 过 程 中 用 到 的 数据 主要 有 65， zx ，w ， 
FP 将 它们 表示 为 可 以 处 理 的 张 量 玫 
中 ，5' 的 数据 存储 在 layer 类 中 名 为 prev_delta 的 
的 数 扩 
存储 在 layer 


了 


计算 的 正确 性 。 


| 算 结 果 放 至 


， 为 了 保证 在 
昌 结 构 而 又 不 会 发 生 异 常 ， 
剖 断 直到 相关 操 
芷 可 以 执行 便 跳 出 while 循环 。 这 种 方式 不 需要 严格 规定 工 
作 段 之 间 的 同步 ， 同 时 也 保证 了 

前 向 传播 中 任务 单元 的 执行 过 程 如 算法 2 所 示 ， 当 前 的 
任务 单元 可 以 读 取 前 一 个 单元 的 输出 数据 作为 输入 ， 然 后 进 
行 前 向 计算 ， 处 理 完毕 后 ， 将 计 
待 下 一 个 任务 单元 读 取 数据 。 
算法 2 PipeCNN 前 向 传播 
合 入 : layer('),layer(t+1) 


在 二 个 


I 循环 队列 中 ， 等 


输入 : layer('-D,layer(')，1layer(t+1) 


于 
2 
3 
4 


54 


7: 
8: 
9: 


输 


出 : 6C /Ow ，0C /ob 


: 6 !+1 = layer(ltl).prev_ delta.Front() 
: Zz! = layer(!-D) .output z.Front() 
: WwW!t1 = layer(!t!).weight.Front() 
<“ 站] = ( (wi+1)T Ot+1) Oo’(z!) 

EE =amo! 

Ow 

< 

op 

layer(0 .prev_delta.enQueue(6 ‘) 


layer(!*!) .prev_delta.deQueue () 


layer(!-1) .output z. deQueue () 


16: layer('tl) .Weight. deQueue () 


PipeCNN 中 队列 的 容量 要 尽量 大 ， 在 实验 中 ， 设 


需要 注意 的 是 ， 由 于 前 向 传播 中 产生 的 数 拉 


干 个 时 刻 之 后 才能 在 反 向 传播 中 用 到 ， 


EB 式 。 在 PipeCNN 


队列 中 ，z 
居 存 储 在 layer 类 中 名 为 output _z 的 队列 中 ，w 的 数据 
类 中 名 为 weight 的 队列 中 。PipeCNN 任务 单元 
的 反 向 传播 如 算法 3 所 示 。 

算法 3 PipeCNN 反 向 传播 


居 可 能 要 在 若 


寻 此 


需要 保证 


队列 的 容 


量 为 100。 


加 
算 
W 


定 的 顺序 排列 ， 并 给 定 工 作 段 个 数 d, 其 中 n>d， 任务 分 配 
法 的 目的 则 是 将 集合 W 划分 为 a 个 互 不 相交 的 子 集 
LUW2...Wu 满 足 WIUW2...UWv=W, 并 且 这 4 个 子 集 的 任 


务 执行 时 间 都 尽 可 能 地 相等 ， 即 时 间 zwsg， 如 式 (7) 所 示 。 


都 
距 
执 
合 
分 
所 
的 
务 
和 


单 
好 
划 
技 
任 


自 


Pa 


算 
4 


的 


= > w)/d (7) 


但 在 实际 情况 中 ， 很 难保 证 每 个 任务 子 集中 的 执行 时 间 
相等 ， 因 此 需要 采取 措施 尽量 缩小 不 同 任务 子 集 的 时 间 差 
。 任务 分 配 算法 的 基本 思想 如 下 : 对 集合 W 中 任务 单元 的 
行 时 间 依 次 进行 累加 ， 取 累加 时 间 与 tave 最 接近 的 任务 组 
为 任务 子 集 ， 并 按照 同样 的 方法 ， 进 行 下 一 个 任务 子 集 的 
配 ， 直 到 集合 W 中 的 所 有 任务 都 分 配 完毕 。 具 体 如 算法 
示 , 其 中 Tbe 表示 保存 上 一 次 时 间 累 加 结果 ,Te 表示 当前 
时 间 累 加 结果 ，L 表示 任务 子 集 左边 界 的 位 置 ，R 表示 任 
子 集 右 边界 的 位 置 ,函数 minDistance(Tywe, Tew, tave) 返 回 Tyre 
7 中 更 接近 tows 的 任务 单元 编号 。 

算法 4 任务 分 配 算法 
输入 : 任务 时 间 和 集合 W{ wi,w2,…,wn }， 工 作 段 个 数 d 
输出 : 任务 子 集 Wi, Wz.Wa 


天 


1: fas =(2,w)/d 
i=1 


2: Tpre = 6j Teour = 0 ;L = 0;R=0; 

3: for i= 1 ton do: 

4: Tpre = Tcur // 保 存 上 一 次 的 累加 结果 

5: Tcur = Tcur + Wi // 得 到 当前 的 累加 结果 
6: if Teur ==tavg : 

7: RS 

8: 添加 任务 子 集 {wl. .wr}; 

9: Tpre = 6j Tour = 0 ;L = i+l; 
10: Lf Tov Stoves 

11: R = minDistance(Tpre, Teur, tavg); 
12: 添加 任务 子 集 {wi. .we}; 

13: if R=i-1: 

14: Teur = Teur - Tpre; 

15: else: 

16: Tcur = 9) 

17s Tpre = 6j L = R+1; 


使 用 算法 4 可 得 到 4 个 工作 段 的 具体 分 配 内 容 ， 在 任务 
元 个 数 较 多 且 任 务 粒度 较 小 的 情形 下 ， 该 算法 分 配 结果 较 
， 因 此 算法 4 可 以 解决 深度 卷 积 网 络 中 的 任务 分 配 问题 。 
分 完成 之 后 的 工作 段 可 以 在 多 核 设备 中 执行 ， 使 用 多 线程 
术 来 实现 并 行 计算 ， 其 中 每 个 线程 执行 的 计算 与 工作 段 的 
务 相 对 应 ， 且 相 邻 工作 段 的 线程 使 用 队列 数据 结构 进行 信 
传递 ，PipeCNN 正 是 以 这 种 思想 来 加 速 卷 积 神经 网 络 的 计 


实验 结果 及 分 析 


实验 采用 连续 型 PipeCNN 的 方式 来 研究 其 中 并 行 计算 
加 速 比 以 及 设备 利用 率 ， 主 要 在 MNIST 数据 集 以 及 


Cifar10 数据 集 上 进行 了 并 行 计算 的 分 析 。 


4.1 ”MNIST 数据 集 实验 


首先 进行 训练 识别 MNIST 手写 字符 的 实验 ， 该 实验 既 


录用 定稿 


吴 胸 ， 等: 


要 保证 模型 训练 的 正确 性 , 又 要 通过 PipeCNN 的 并 行 计 算 方 


法 达到 加 速度 的 目的 。 实 验 中 根据 MNIST 数据 集 设计 出 
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率 都 为 98.91%。 从 实验 结果 可 以 看 出 , 在 Epoch 设置 较 大 的 
情况 下 ， 使 用 PipeCNN 方法 并 不 会 影响 到 模型 的 训练 精度 ， 


为 10， 


恨 的 卷 积 神经 网 络 ， 设 置 参 数 Batch Size 为 


32，Epoch 
串 行 执 行 卷 积 神经 网 络 可 以 得 到 训练 过 程 中 每 一 层 的 


平均 计算 时 间 如 表 1 所 示 。 


表 1 每 一 层 的 计算 时 间 
Tab. 1 Computation time of each layer /ms 
人 征 务 单元 1 2 3 4 5 6 
前 向 传播 时 间 0.886 0.086 0.542 1.293 0.172 0.007 
反 向 传播 时 间 0.599 0.907 1.507 0.033 1.473 0.016 


根据 每 一 层 的 前 向 和 反 向 的 计算 时 间 , 可 以 划分 工作 段 ， 
结果 如 表 2 


所 示 ， 其 中 太 代 表 第 大 层 的 前 向 传播 计算 ，bx 代 


衣 第 帮 


层 的 反 向 传播 计算 ， 然 后 得 到 表 3 中 的 串 行 时 间 与 并 


行 时 间 比 较 情 况 : 


表 2 工作 段 划分 


Tab.2 Division of working part /ms 
工作 段 分 配 情况 工作 段 时 间 
1 f1,f2,f3 1.514 
2 f4,f5,f6,b6 1.488 
3 b5,b4 1.506 
4 b3 1.507 
5 b2,b1l 1.506 


表 3 串 行 时 间 与 并 行 时 间 比 较 


Tab.3 Comparison of serial time and parallel time 


计算 类 型 线程 数 计算 时 间 
串 行 计算 1 4035s 
并 行 计算 5 1074s 


串 行 计算 与 并 行 计算 的 时 间 可 以 得 出 加 速 比 为 : 


Sp=4035/1074=3.757; 设备 利用 率 为 : =3.757/5=75.14%。 可 


以 看 出 ， 在 使 
良好 的 加 速 比 以 及 设备 利用 率 。 
模型 在 测试 数据 集 上 的 准确 率 是 衡量 模型 好 坏 的 重要 指 


了 4 个 计算 核 的 情况 下 ，PipeCNN 可 以 取得 


标 ， 因 


连续 型 PipeCNN 在 计算 下 一 


此 需要 研究 使 用 PipeCNN 方法 对 模型 准确 率 的 影响 。 


比 次 梯度 的 过 程 中 , 为 了 提高 设 


备 利 用 


个 Epo 


种 程度 上 削减 小 批量 梯度 下 


的 效率 而 使 用 了 异步 梯度 更 新 的 方式 ， 这 可 能 会 从 某 
降 方 法 的 效果 。 在 实验 中 统计 每 


ch 训练 完成 之 后 模型 在 测试 数据 集 上 的 准确 率 ， 串 行 


ll 


方式 与 PipeCNN 方式 的 准确 率 结果 对 比如 图 7 所 示 。 


Fig.7 


从 必 
式 训练 模型 得 到 的 ? 
步 梯度 更 新 带 来 的 后 果 ， 但 是 随 着 计 
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图 7 串 行 方式 与 PipeCNN 的 准确 率 比 较 
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7 中 可 以 观察 到 ， 在 训练 的 开始 阶段 ， 使 用 串 行 方 
确 率 要 高 于 PipeCNN 的 准确 率 , 这 是 异 
练 过 程 的 持续 进行 ， 


PipeCNN 的 准确 率 逐 渐 接 近 串 行 方式 的 准确 率 ， 说 明 


PipeCNN 方法 对 模型 训练 的 后 期 影 


训 
终 的 结 


向 较 小 。 
练 完 成 后 ， 取 10 个 Epoch 中 准确 率 最 高 的 模型 为 最 
果 , 可 得 出 使 用 串 行 方式 与 PipeCNN 方式 的 模型 准确 


LI 


同时 可 以 很 好 的 加 快 卷 积 # 
4.2 Cifar10 数据 集 实验 


经 网 络 的 训练 速度 。 


其 次 进行 训练 识别 彩色 图 像 的 实验 , 数据 集 采 用 Cifar10， 


~ 


中 共有 10 个 类 别 。 不 同 于 单 通道 的 MNIST 数据 集 ，Cifar 


数据 集中 的 图 片 有 三 个 通道 ， 因 此 训练 与 识别 的 难度 要 比 


MNIST 数据 集 大 得 多 。 实 验 中 设置 Batch Size 为 16， Epoch 
为 0， 根据 Cifar10 数据 集 可 设计 出 14 层 的 卷 积 神经 网 络 ， 


表 4 所 示 为 统计 得 到 的 训练 过 程 中 每 一 层 的 平均 计算 时 间 。 


I 


表 4 每 一 层 的 计算 时 间 


Tab.4 Computation time of each layer /ms 
任务 单元 1 2 3 4 5 6 7 
前 向 传播 时 间 2.108 9.049 0.272 4.905 9.021 0.122 4.479 
反 向 传播 时 间 3.042 15.695 0.312 10.931 16.404 0.164 13.409 
任务 单元 8 9 10 11 12 13 14 
前 向 传播 时 间 11.056 9.456 8.933 0.076 0.407 0.022 0.008 
反 向 传播 时 间 29.977 29.975 19.093 0.112 0.710 0.047 10.001 
根据 任务 分 配 算法 可 以 得 到 表 5 的 工作 段 划分 结果 ， 然 
后 计算 出 表 6 中 的 串 行 时 间 与 并 行 时 间 比 较 情 况 : 
表 5 工作 段 划分 
Tab.5 Division of working part /ms 
工作 段 任务 单元 Total time 
1 f1,f2,f3,f4,f5,f6,f7 29.956 
2 f8,f9,f10,f11,f12,f13,f14 29.958 
3 b14,b13,b12,b11,b10 29.963 
4 b9 29.975 
5 b8 29.977 
6 b7,b6,b5 29.977 
7 b4,b3,b2,b1 29.98 


表 6 串 行 时 间 与 并 行 时 间 比 较 


time and parallel time 


计算 时 间 


Comparison of serial 
计算 类 型 线程 数 
串 行 计算 1 30243s 
并 行 计算 7 5499s 


bam 


= 
的 
中 
中 


最 终 的 j 


训练 完成 后 ， 在 所 有 Epoch 中 取 准 确 率 最 高 的 模型 作为 
练 结果 , 使 用 串 行 方式 与 PipeCNN 的 方式 得 到 模型 


最 终 准确 率 都 为 60.84%。 接 下 来 衡量 并 行 计算 的 效果 ， 由 


行 计算 与 


行 计算 的 时 间 可 得 加 速 比 为 : 


Sp=30243/5499=5.50; 设备 利用 率 为 : =5.50/7=78.6%。 因 此 
可 以 得 出 ,PipeCNN 在 彩色 图 像 的 训练 识别 任务 中 也 可 以 获 


得 良好 的 加 速效 果 。 
5 ”结束 语 
PipeCNN 采用 软件 流水 线 的 思想 来 加 速 梯度 计算 的 过 


程 ， 消 除了 GPipe 中 不 可 避免 的 空闲 阶段 ， 同 时 也 保证 了 模 


型 


训练 的 正确 性 ， 


采 


用 将 前 向 传播 与 反 向 传播 灵活 分 配 在 不 


同 


型 


加 


网 


职 神经 网 台 
记录 每 


计算 设备 中 的 方法 ， 理 论 上 可 以 提高 设备 利用 的 效率 。 
据 梯度 更 新 方式 的 不 同 ， 


根 


PipeCNN 可 分 为 间断 与 连续 两 种 类 


其 中 连续 型 PipeCNN 可 更 大 程度 减少 流水 线 的 空闲 等 待 


时 间 。 在 MNIST 数据 集 和 Cifar10 数据 集 的 实验 中 ,PipeCNN 


速 了 卷 积 
设备 利 | 
络 的 方法 。 


经 网 络 的 训练 过 程 ， 取 得 了 良好 的 加 速 比 以 及 
这 表明 PipeCNN 是 一 种 通用 的 并 行 化 卷 积 神经 


3 率 ， 


下 一 步 研究 将 进一步 优化 任务 分 配 的 过 程 ， 为 了 获得 卷 
中 每 一 层 的 计算 时 间 ， 需 要 先 将 程序 运行 一 次 ， 


层 的 执行 时 间 ， 再 进行 任务 划分 ， 而 这 种 做 法 是 元 


余 的 ， 由 于 当 网 络 定义 完成 的 时 候 ， 每 一 层 的 计算 量 是 可 以 


录用 定稿 吴 胸 ， 等: PipeCNN: 一 种 基于 软件 流水 线 的 并 行 化 卷 积 神经 网 络 方法 


衡量 的 ， 因 此 在 后 续 的 研究 中 ， 可 以 依据 模型 本 身 的 大 小 ， 
估计 每 一 层 的 计算 量 ， 从 而 可 以 直接 得 到 每 一 层 的 计算 量 大 
小 而 不 是 根据 统计 每 一 层 的 计算 时 间 来 划分 工作 段 。 
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